tg-me.com/knowledge_accumulator/16
Last Update:
Reinforcement Learning - самое главное.
Это обобщённая постановка задачи для обучения интеллектуальной системы.
В ней происходит обмен информацией между агентом (системой) и средой (внешним миром).
Поочерёдно среда отправляет агенту какую-то информацию о своём состоянии и награду агента, а агент в ответ выбирает действие и отправляет его в среду. Награда при этом может не зависеть от сделанного только что действия. Среда в общем случае является чёрным ящиком.
Наша цель - построить агента, максимизирующего суммарную получаемую награду из среды.
Прелесть данной постановки в том, что в таких терминах можно описать абсолютно что угодно - компьютерную игру, рекомендации музыки, футбол, выживание в природе, жизнь (если вы придумали себе награду).
Но что многие не замечают - прелесть постановки является её же проклятием. Про это будет в вечерном посте.
BY Knowledge Accumulator

Share with your friend now:
tg-me.com/knowledge_accumulator/16